从另一个视角看Transformer:注意力机制就是可微分的k-NN算法
注意力机制听起来很玄乎,但我们可以把它看作一个软k-NN算法。查询向量问:"谁跟我最像?",softmax投票,相似的邻居们返回一个加权平均值。这就是注意力头的另外一种解释: 一个可微分的软k-NN:计算相似度 → softmax转换为权重 → 对邻居值求加权
视角 算法 transformer 掩码 axis 2025-09-24 20:22 2
注意力机制听起来很玄乎,但我们可以把它看作一个软k-NN算法。查询向量问:"谁跟我最像?",softmax投票,相似的邻居们返回一个加权平均值。这就是注意力头的另外一种解释: 一个可微分的软k-NN:计算相似度 → softmax转换为权重 → 对邻居值求加权
视角 算法 transformer 掩码 axis 2025-09-24 20:22 2
2016-2017 版视频和讲义,几乎成了无数 CVer 的启蒙教材。如今 8 年过去,这门传奇课程终于迎来了 2025 春季全新版本,再次由李飞飞教授领衔,助教团队联合主讲!
斯坦福 transformer 计算机视觉 模 cs231n 2025-09-24 16:38 4
Transformer 架构最早由 Google 研究团队在 2017 年提出,其核心思想是利用自注意力机制来捕捉序列中元素之间的关系,从而避免了传统循环神经网络(RNN)难以处理长序列依赖的问题。
架构 transformer 人 transformer架构 2025-09-24 10:50 2
自动驾驶车辆要在复杂多变的道路环境中安全行驶,不仅需要“看见”前方的车辆、行人和路面标志,还需要“读懂”交通标识上的文字提示、施工告示牌和乘客的语言指令。之前和大家讨论过VLA(相关阅读:自动驾驶中常提的VLA是个啥?),了解到视觉-语言-动作模型,但在很多场
模态 transformer vla 自然语言 vlm 2025-09-24 04:46 4
官方报告说,在处理一个400万Token的超长文本任务时,瞬悉的生成速度比基于Transformer架构的模型快了将近100倍!这是我们国家在AI模型研究领域首次提出大规模类脑线性基础模型架构。
科学家 英伟达 人脑 transformer snn 2025-09-23 00:15 1
这项由独立研究者Rishiraj Acharya完成的创新研究发表于2025年8月的arXiv预印本平台(论文编号:arXiv:2509.00605v1),有兴趣深入了解的读者可以通过该编号在arXiv网站上访问完整论文。这位研究者独自开发了一种全新的人工智能
算法 transformer mamba gam achar 2025-09-23 15:36 2
过去几年,大模型几乎都依赖 Transformer,它支撑了 GPT、Claude、Gemini 等一众前沿模型的进步,但也一直被诟病:一旦文本变长,计算量和内存消耗就会成倍膨胀,百万级 token 几乎不可承受。与此同时,大模型训练几乎完全依赖 NVIDIA
模型 英伟达 transformer gpu 中科院 2025-09-23 14:55 4
有人说神曲能火是因为歌词和旋律简单,听得多了就印在脑子里。但是对一个有着海量用户、复杂多样内容场景的短视频平台来说,如何让音乐更好地和短视频创作及互动融合在一起,绝不是一件简单的事。
transformer 音频 神曲 残差 曲库 2025-09-22 05:35 4
在当时的 AI 研究界,这是一个石破天惊的宣言。它提议彻底抛弃被奉为圭臬的循环神经网络(RNN),只用一种名为“注意力”的机制来处理语言。最初,许多人对此持怀疑态度。然而,这篇仅 15 页的论文很快就点燃了一场燎原之火。它所提出的 Transformer 架构
模型 transformer a kaiser lukasz 2025-09-22 21:49 2
在构建和视觉相关的大模型时,有一个非常显著的痛点。视觉模态包含图像、视频和三维这三种,这些视觉模态具备不同是数据维度和表征方式,在研究中几乎不可避免的需要分开处理,使得视觉模型被拆分为三个相不互通的研究领域,难以实现视觉领域的统一泛化。
苹果 模态 视觉 transformer psnr 2025-09-22 20:51 3
在当时的 AI 研究界,这是一个石破天惊的宣言。它提议彻底抛弃被奉为圭臬的循环神经网络(RNN),只用一种名为“注意力”的机制来处理语言。最初,许多人对此持怀疑态度。然而,这篇仅 15 页的论文很快就点燃了一场燎原之火。它所提出的 Transformer 架构
模型 openai transformer 科 lukasz 2025-09-22 17:36 2
在硅谷举行的科技盛会Hot Chips 2025首日的主题演讲上,谷歌DeepMind的Noam Shazeer回答了这一问题,发表了题为《下一阶段AI的预测》的主题演讲。
谷歌 transformer a transformer作者 2025-09-22 14:47 2
在人工智能处理语言时,“我吃苹果” 和 “苹果吃我” 的语义天差地别,这种顺序差异的识别,离不开一项核心技术 ——位置编码(Positional Encoding)。它诞生的背景,要从 Transformer 模型的 “先天缺陷” 说起。
技术 transformer 语言 编码 pos 2025-09-21 18:26 3
当前,人工智能正朝着AGI的方向迈进。伴随技术突破与产业应用的深度融合,人工智能进入全新发展阶段。2025年被视为“智能体元年”,AI Agent已成为驱动产业变革的核心力量。智能体通过自主任务规划、动态决策与闭环执行,实现从被动响应指令到主动解决复杂问题的跨
智能体 人工智能 夸克 transformer agi 2025-09-20 22:15 3
本文以“端到端”为主线,梳理特斯拉 FSD、小鹏、华为、Waymo 等玩家的关键节点。结合学术界的进展,给出端到端技术在智能驾驶与具身智能领域的落地路径、现实进展与趋势展望。
华为 特斯拉 transformer 端到端 waymo 2025-09-20 18:16 2
这些模型生成的视频不仅清晰流畅,还几乎真假难辨,无论是模拟真实世界还是动画风格,AI都能轻松胜任。Netflix 甚至在新剧《永恒宇航员》中大规模使用 AI 特效,标志着这一技术首次进入主流影视制作流程。
视频 模型 技术 transformer sora 2025-09-19 01:28 3
当增程技术解决里程焦虑后,智能化成为新战场。昊铂HL增程版以“全栈自研智能体”为标签,试图在25万级市场建立技术护城河。这套系统是营销噱头还是真本事?深度体验揭示其智慧出行的真实成色。
智能体 transformer pilot hl bev 2025-09-18 07:07 2
“电影工业的iPhone时刻”,正如当年手机上的摄像头改变了摄影行业,今天的视频生成模型,也会让电影制作人和普通创作者共享同一套工具。
视频 失业 好莱坞 transformer sora 2025-09-18 22:19 4
过去一年,AI视频生成领域彻底“起飞”了。OpenAI 的Sora、谷歌DeepMind 的Veo 3、Runway 的Gen-4,一个接一个地登场,生成的视频质量高到几乎可以以假乱真。不仅画面真实,连光影、动作、镜头语言都越来越接近专业级影视制作。Netfl
视频 逻辑 llm transformer sora 2025-09-18 16:48 2
Transformer 模型从发布至今已经有 8 个年头了,无一例外,现有的 LLM 大语言模型都是基于 Transformer 模型演变而来的,例如 GPT 系列模型,Gemini 系列模型,DeepSeek 系列模型以及Llama系列模型等等,都能看到 T
模型 llm transformer deepseek de 2025-09-17 17:58 3